双独立样本比例 Z 检验 - 快速教程
By Ruben Geert van den Berg under Statistics A-Z
- Z 检验 - 简单示例
- 假设
- Z 检验公式
- 比例差异的置信区间
- 效应量 I - Cohen’s H
- 在 Google Sheets 中进行 Z 检验
定义 & 介绍
双独立样本比例 Z 检验 (Z-test for 2 independent proportions) 用于检验某个事件在两个子群体中发生的频率是否相同。例如:男女学生回答某个考题正确的比例是否相等?下图展示了所需数据的示例。
Z 检验 - 简单示例
随机抽取 n = 175 名男生和 n = 164 名女生完成 5 道考题。原始数据(部分展示如下)位于 此 Google Sheets (只读)。
我们首先考察第 1 题。关于此题的原始数据可以用下面的列联表 (contingency table) 来概括。
我们的列联表展示了回答第 1 题正确的男女生的比例。然而,在统计学中,我们通常更喜欢用比例 (proportions) 而不是百分比 (percentages)。总结我们的发现,我们看到:
- 在 n1 = 175 名男生中,比例为 p1 = 0.720 的学生回答正确;
- 在 n2 = 164 名女生中,比例为 p2 = 0.768 的学生回答正确。
在我们的样本中,女生略优于男生。然而,样本结果通常与总体对应值有所不同。即使整个男生和女生总体表现相似,我们仍然可能发现一个小的样本差异。这很容易由于抽取学生随机样本而产生。Z 检验试图推翻这一假设,从而证明总体表现确实不同。
零假设 (Null Hypothesis)
双独立样本比例 Z 检验的零假设是:两个总体比例之间的差异为零。如果这是真的,那么两个样本比例之间的差异应该接近零。与零差异很大的结果不太可能发生,因此反对零假设。那么,一个给定的结果到底有多不可能呢?计算这个概率相当容易,但这确实需要一些假设。
假设 (Assumptions)
双独立样本比例 Z 检验的假设是:
- 独立观测 (independent observations);
- 足够的样本量 (sufficient sample sizes).
那么,什么是足够的样本量呢?Agresti 和 Franklin (2014) 建议,如果满足以下条件,则检验结果足够准确:
- \(p_a n_a \),
- \((1-p_a) n_a \),
- \(p_b n_b \),
- \((1-p_b) n_b \)
其中
- \(n_a\) 和 \(n_b\) 表示 a 组和 b 组的样本量;
- \(p_a\) 和 \(p_b\) 表示两组中“成功”的比例。
Z 检验公式 (Z-Test Formulas)
为了计算我们的 Z 检验,我们首先简单地计算样本比例之间的差异,公式如下:
\[dif = p1 - p2\]
对于我们的示例数据,结果为:
\[dif = 0.720 - 0.768 = -.048.\]
现在,零假设声称两个子总体具有相同的成功比例。我们将其估计为:
\[\hat{p} = \frac{p_a\cdot n_a + p_b\cdot n_b}{n_a + n_b}\]
其中 \(\) 是两个子总体的估计比例。请注意,这仅仅是将两个样本的成功比例合并在一起。对于我们的示例数据,计算如下:
\[\hat{p} = \frac{0.720\cdot 175 + 0.768\cdot 164}{175 + 164} = 0.743\]
接下来,H0 下差异的标准误差 (standard error) 为:
\[SE_0 = \sqrt{\hat{p}\cdot (1-\hat{p})\cdot(\frac{1}{n_a} + \frac{1}{n_b})}\]
对于我们的示例,计算如下:
\[SE_0 = \sqrt{0.743\cdot (1-0.743)\cdot(\frac{1}{175} + \frac{1}{164})} = .0475\]
我们现在可以很容易地计算出我们的检验统计量 \(Z\) ,公式如下:
\[Z = \frac{dif}{SE_0}\]
对于我们的示例,计算如下:
\[Z = \frac{-.048}{.0475} = -1.02\]
如果满足 Z 检验的假设,则 \(Z\) 近似服从 标准正态分布。由此我们可以很容易地查到:
\[P(Z\lt -1.02) = 0.155\]
因此,我们的 双尾显著性 为:
\[P(2-tailed) = 0.309\]
结论:我们 不拒绝零假设。如果总体差异为零,那么发现观察到的样本差异或更极端差异的可能性很大。我们的数据并不反驳男生和女生总体在第 1 题上表现相同的说法。
比例差异的置信区间 (Confidence Interval for the Difference between Proportions)
我们的数据显示,我们的样本比例之间的差异 \(dif\) = -.048。回答正确的男生百分比比女生低约 4.8%。
然而,由于我们的 4.8% 仅基于一个样本,因此很可能存在一些“偏差”。那么,我们预计它会有多少“偏差”呢?我们可以通过计算 置信区间 来回答这个问题。
首先,我们现在假设一个备择假设 (alternative hypothesis) \(H_A\),即总体差异为 -.048。现在,标准误差的计算方式与 \(H_0\) 下略有不同:
\[SE_A = \sqrt{\frac{p_a (1 - p_a)}{n_a} + \frac{p_b (1 - p_b)}{n_b}}\]
对于我们的示例数据,计算如下:
\[SE_A = \sqrt{\frac{.72 (1 - .72)}{175} + \frac{.77 (1 - .77)}{164}} = 0.0473\]
现在,比例之间总体差异 \(\) 的置信区间为:
\[CI_{\delta} = \hat{p} - SE_A \cdot Z_{1-^{\alpha}_2} \lt \delta \lt \hat{p} + SE_A \cdot Z_{1-^{\alpha}_2}\]
对于 95% CI,\(\) = 0.05。因此,
\[Z_{1-^{\alpha}_2} = Z_{.975} \approx 1.96\]
下图说明了这些以及一些其他临界 Z 值,适用于不同的 \(\) 水平。这些确切的值可以很容易地在 Excel 或 Google Sheets 中查到,如 正态分布 - 快速教程 所示。
对于我们的示例,95% 置信区间为:
\[CI_{\delta} = -.048 - .0473 \cdot 1.96 \lt \delta \lt -.048 + .0473 \cdot 1.96 =\]
\[CI_{\delta} = -.141 \lt \delta \lt 0.044\]
也就是说,总体差异有 95% 的可能性介于 -.141 和 .044 之间。请注意,此 CI 包含零:总体比例之间的零差异(意味着男生和女生的表现一样好)在可能的范围内。
效应量 I - Cohen’s H
我们的样本比例为 p1 = 0.72 和 p2 = 0.77。我们应该认为这是一个小、中或大的效应吗?一个可能的 效应量度量 仅仅是我们的比例之间的差异。然而,更合适的度量是 Cohen’s H,定义为 \[h = |\;2\cdot arcsin\sqrt{p1} - 2\cdot arcsin\sqrt{p2}\;|\] 其中 \(arcsin\) 指的是 反正弦 函数。
基本的 经验法则 是:
- h = 0.2 表示 小 效应;
- h = 0.5 表示 中 效应;
- h = 0.8 表示 大 效应。
对于我们的示例数据,Cohen’s H 为 \[h = |\;2\cdot arcsin\sqrt{0.72} - 2\cdot arcsin\sqrt{0.77}\;|\] \[h = |\;2\cdot 1.01 - 2\cdot 1.07\;| = 0.11\] 我们的经验法则表明,这种效应接近于可以忽略不计。
效应量 II - Phi 系数 (Phi Coefficient)
双独立样本比例 Z 检验的另一种效应量度量是 phi 系数,用 φ (希腊字母 “phi”) 表示。这仅仅是二分变量 (dichotomous variables) 之间的 Pearson 相关 。
遵循相关的 经验法则,我们可以提出:
- \(|;;| = 0.1\) 表示小效应;
- \(|;;| = 0.3\) 表示中效应;
- \(|;;| = 0.5\) 表示大效应。
然而,我们认为这些经验法则显然是有争议的:它们可能过于严格,因为 | φ | 往往比 | r | 小得多。
在 Google Sheets 中进行 Z 检验 (Z-Tests in Googlesheets)
Z 检验仅在 2020 年的 SPSS 版本 27 中引入。它们在 JASP 等其他一些统计软件包中完全没有。因此,我们开发了 此 Google Sheets(只读),部分显示如下。
您可以将此表下载为 Excel 并将其用作快速简便的 Z 检验计算器。给定 2 个样本比例和 2 个样本量,我们的工具
- 检查是否满足样本量假设;
- 计算 Z 检验的双尾显著性水平;
- 计算比例之间差异的置信区间;
我们更喜欢此工具而不是在线计算器,因为
- Excel 中的结果可以(并且应该)与任何其他项目文件一起保存,而在线计算器的结果通常不会;
- Excel 中使用的所有公式都是可见的,因此可以验证;
- 通过展开公式部分,可以在 Excel 中轻松运行许多 Z 检验。
SPSS 用户可以使用 MEANS
命令轻松地为 Excel 工具创建正确的输入,如下面的 SPSS 语法 所示:
***Create table with sample sizes and proportions for v1 to v5 by sex.
**
means v1 to v5 by sex
/cells count mean.
对 2 个或更多个因变量执行此操作会生成一个如下所示的表格。
请注意,所有因变量必须遵循 0-1 编码才能使其正常工作。
Z 检验与其他检验的关系 (Relation Z-Test with Other Tests)
双独立样本比例 Z 检验的替代方法是 卡方独立性检验 (chi-square independence test)。后者的显著性水平(始终是单尾的)与前者的双尾显著性相同。
经过仔细检查,这些检验(以及它们的假设)在统计上是等价的。但是,有两个原因更倾向于使用 Z 检验而不是卡方检验:
- Z 检验产生比例之间差异的置信区间;
- 运行 2 个或更多个 Z 检验比 2 个或更多个带有卡方检验的列联表更容易,并且会生成更清晰的输出表。
其次,双独立样本比例 Z 检验与 独立样本 t 检验 (independent samples t-test) 在渐近意义上是等价的:它们的结果在使用更大的样本量时变得更加相似。但是,反之,样本量越小,比例的 t 检验结果就越“不准确”。
倾向于使用 Z 检验而不是 t 检验的其他原因是:
- 在使用较小的样本量时,Z 检验会导致更高的功效和更小的置信区间;
- t 检验要求因变量 正态分布 且总体方差相等,而 Z 检验则不需要。
所以,简而言之,在适当的时候使用 Z 检验。您的统计软件包不包含它并不能成为不去做正确事情的理由。
感谢您的阅读。
参考文献
- Van den Brink, W.P. & Koele, P. (1998). Statistiek, deel 2 [统计学,第 2 部分]。阿姆斯特丹:Boom。
- Van den Brink, W.P. & Koele, P. (2002). Statistiek, deel 3 [统计学,第 3 部分]。阿姆斯特丹:Boom。
- Warner, R.M. (2013). Applied Statistics (2nd. Edition). 千橡市,加利福尼亚州:SAGE。
- Agresti, A. & Franklin, C. (2014). Statistics. The Art & Science of Learning from Data. 埃塞克斯:Pearson Education Limited。
- Howell, D.C. (2002). Statistical Methods for Psychology (第 5 版)。太平洋格罗夫,加利福尼亚州:Duxbury。
- Slotboom, A. (1987). Statistiek in woorden [用文字表达的统计学]。格罗宁根:Wolters-Noordhoff。
- Cohen, J (1988). Statistical Power Analysis for the Social Sciences (2nd. Edition). 希尔斯代尔,新泽西州,劳伦斯·埃尔鲍姆联合公司。